我们提出了一个新颖的圆锥视觉探针仪框架,称为PVO,以对场景的运动,几何形状和泛型分割信息进行更全面的建模。 PVO在统一的视图中模拟视觉探光仪(VO)和视频全景分割(VPS),从而使这两个任务能够相互促进。具体来说,我们将一个泛型更新模块引入VO模块,该模块在图像泛型分段上运行。该泛型增强的VO模块可以通过调整优化的相机姿势的权重来修剪相机姿势估计中动态对象的干扰。另一方面,使用摄像头姿势,深度和光流,通过将当前帧的圆形分割结果融合到相邻框架中,从而提高了VO-增强VPS模块,从而提高了分割精度。模块。这两个模块通过反复的迭代优化互相贡献。广泛的实验表明,PVO在视觉景观和视频综合分割任务中的最先进方法均优于最先进的方法。代码和数据可在项目网页上找到:\ urlstyle {tt} \ textColor {url_color} {\ url {https://zju3dv.github.io/pvo/pvo/}}}。
translated by 谷歌翻译
我们研究机器学习(ML)和深度学习(DL)算法的能力,基于地下温度观察推断表面/地面交换通量。观察和助势是由代表哥伦比亚河附近的高分辨率数值模型,位于华盛顿州东南部的能源部汉福德遗址附近。随机测量误差,不同幅度的加入合成温度观察。结果表明,两个ML和DL方法可用于推断表面/地面交换通量。 DL方法,尤其是卷积神经网络,当用于用施加的平滑滤波器解释噪声温度数据时越高。然而,ML方法也表现良好,它们可以更好地识别减少数量的重要观察,这对于测量网络优化也是有用的。令人惊讶的是,M1和DL方法比向下通量更好地推断出向上的助焊剂。这与使用数值模型从温度观测推断出来的先前发现与先前的发现与先前的发现相反,并且可能表明将ML或DL推断的组合使用与数值推断相结合可以改善河流系统下方的助焊剂估计。
translated by 谷歌翻译
图形神经网络(GNNS)已经变得越来越流行,并且在许多基于图形的应用程序中实现了令人印象深刻的结果。但是,需要广泛的手动工作和域知识来设计有效的架构,GNN模型的结果具有高差异,与不同的培训设置相比,限制了现有GNN模型的应用。在本文中,我们展示了AutoHensgnn,这是一个框架,用于为图表任务构建有效和强大的模型而没有任何人为干预。 Autohensgnn在kdd杯2020年签名挑战中赢得了第一名,并在最终阶段实现了五个现实生活数据集的最佳等级分数。鉴于任务,AutoHensgnn首先应用一个快速的代理评估,以自动选择有希望的GNN模型的池。然后它构建了一个分层合奏框架:1)我们提出图形自我合奏(GSE),这可以减少重量初始化的方差,有效利用本地和全球街区的信息; 2)基于GSE,使用不同类型的GNN模型的加权集合来有效地学习更多辨别节点表示。为了有效地搜索体系结构和合奏权重,我们提出了AutoHensgnn $ _ {\ text {梯度}} $,它将架构和集合权重视为架构参数,并使用基于梯度的架构搜索来获得最佳配置,而autohensgnn $ {autohensgnn $ { \文本{Adaptive}} $,可以根据模型精度自适应地调整集合重量。关于节点分类的广泛实验,图形分类,边缘预测和KDD杯挑战表明了Autohensgnn的有效性和一般性
translated by 谷歌翻译
与传统方法相比,学到的图像压缩已在PSNR和MS-SSIM中取得了非凡的速率延伸性能。但是,它遭受了密集的计算,这对于现实世界的应用是无法忍受的,目前导致其工业应用有限。在本文中,我们将神经体系结构搜索(NAS)介绍到具有较低延迟的更有效网络,并利用量化以加速推理过程。同时,已经为提高效率而做出了工程努力。使用PSNR和MS-SSIM的混合损失以更好的视觉质量进行了优化,我们获得的MSSIM比JPEG,JPEG XL和AVIF在所有比特率上都高得多,而JPEG XL和AVIF之间的PSNR则获得了PSNR。与JPEG-Turbo相比,我们的LIC的软件实施实现了可比较甚至更快的推理速度,而多次比JPEG XL和AVIF快。此外,我们的LIC实施达到了145 fps的惊人吞吐量,用于编码为208 fps,用于在Tesla T4 GPU上解码1080p图像。在CPU上,我们实施的延迟与JPEG XL相当。
translated by 谷歌翻译
我们提出了场景运动的新颖双流表示,将光流分​​解为由摄像机运动引起的静态流场和另一个由场景中对象的运动引起的动态流场。基于此表示形式,我们提出了一个动态的大满贯,称为Deflowslam,它利用图像中的静态和动态像素来求解相机的姿势,而不是像其他动态SLAM系统一样简单地使用静态背景像素。我们提出了一个动态更新模块,以一种自我监督的方式训练我们的Deflowslam,其中密集的束调节层采用估计的静态流场和由动态掩码控制的权重,并输出优化的静态流动场的残差,相机姿势的残差,和反度。静态和动态流场是通过将当前图像翘曲到相邻图像来估计的,并且可以通过将两个字段求和来获得光流。广泛的实验表明,在静态场景和动态场景中,Deflowslam可以很好地推广到静态和动态场景,因为它表现出与静态和动态较小的场景中最先进的Droid-Slam相当的性能,同时在高度动态的环境中表现出明显优于Droid-Slam。代码和数据可在项目网页上找到:\ urlstyle {tt} \ textColor {url_color} {\ url {https://zju3dv.github.io/deflowslam/}}}。
translated by 谷歌翻译
我们研究气动非划和操纵(即吹),作为有效移动散射物体进入目标插座的一种手段。由于空气动力的混乱性质,吹吹控制器必须(i)不断适应其动作的意外变化,(ii)保持细粒度的控制,因为丝毫失误可能会导致很大的意外后果(例如,散射对象已经已经存在在一堆中)和(iii)推断远程计划(例如,将机器人移至战略性吹动地点)。我们在深度强化学习的背景下应对这些挑战,引入了空间动作地图框架的多频版本。这可以有效学习基于视觉的政策,这些政策有效地结合了高级计划和低级闭环控制,以进行动态移动操作。实验表明,我们的系统学会了对任务的有效行为,特别是证明吹吹以比推动更好的下游性能,并且我们的政策改善了基线的性能。此外,我们表明我们的系统自然会鼓励跨越低级细粒控制和高级计划的不同亚物质之间的新兴专业化。在配备微型气鼓的真实移动机器人上,我们表明我们的模拟训练策略很好地转移到了真实的环境中,并可以推广到新颖的物体。
translated by 谷歌翻译
在设计,制造和控制问题中,我们通常面临合成的任务,其中我们必须生成满足一组约束的对象或配置,同时最大化一个或多个客观函数。合成问题通常是特征在于物理过程,其中许多不同的实现可以实现目标。这种多对一地图对前馈合成的监督学习具有挑战,因为该组可行的设计可能具有复杂的结构。此外,许多物理模拟的不可分化性质可防止有效的直接优化。我们通过两级神经网络架构来解决这两个问题,我们可以认为是一个AutoEncoder。我们首先学习解码器:一个可怜的代理,近似于多对一的物理实现过程。然后,我们学习编码器,从目标映射到设计,同时使用固定解码器来评估实现的质量。我们在两种案例研究中评估方法:添加剂制造中的挤出机路径规划和约束软机器人逆运动学。我们比较我们使用学习的代理商直接优化设计的方法,并监督合成问题的学习。我们发现,我们的方法可以产生比监督学习更高的质量解决方案,同时具有直接优化的质量竞争,计算成本大大降低。
translated by 谷歌翻译
Deep learning models can achieve high accuracy when trained on large amounts of labeled data. However, real-world scenarios often involve several challenges: Training data may become available in installments, may originate from multiple different domains, and may not contain labels for training. Certain settings, for instance medical applications, often involve further restrictions that prohibit retention of previously seen data due to privacy regulations. In this work, to address such challenges, we study unsupervised segmentation in continual learning scenarios that involve domain shift. To that end, we introduce GarDA (Generative Appearance Replay for continual Domain Adaptation), a generative-replay based approach that can adapt a segmentation model sequentially to new domains with unlabeled data. In contrast to single-step unsupervised domain adaptation (UDA), continual adaptation to a sequence of domains enables leveraging and consolidation of information from multiple domains. Unlike previous approaches in incremental UDA, our method does not require access to previously seen data, making it applicable in many practical scenarios. We evaluate GarDA on two datasets with different organs and modalities, where it substantially outperforms existing techniques.
translated by 谷歌翻译
The development of social media user stance detection and bot detection methods rely heavily on large-scale and high-quality benchmarks. However, in addition to low annotation quality, existing benchmarks generally have incomplete user relationships, suppressing graph-based account detection research. To address these issues, we propose a Multi-Relational Graph-Based Twitter Account Detection Benchmark (MGTAB), the first standardized graph-based benchmark for account detection. To our knowledge, MGTAB was built based on the largest original data in the field, with over 1.55 million users and 130 million tweets. MGTAB contains 10,199 expert-annotated users and 7 types of relationships, ensuring high-quality annotation and diversified relations. In MGTAB, we extracted the 20 user property features with the greatest information gain and user tweet features as the user features. In addition, we performed a thorough evaluation of MGTAB and other public datasets. Our experiments found that graph-based approaches are generally more effective than feature-based approaches and perform better when introducing multiple relations. By analyzing experiment results, we identify effective approaches for account detection and provide potential future research directions in this field. Our benchmark and standardized evaluation procedures are freely available at: https://github.com/GraphDetec/MGTAB.
translated by 谷歌翻译
As one of the prevalent methods to achieve automation systems, Imitation Learning (IL) presents a promising performance in a wide range of domains. However, despite the considerable improvement in policy performance, the corresponding research on the explainability of IL models is still limited. Inspired by the recent approaches in explainable artificial intelligence methods, we proposed a model-agnostic explaining framework for IL models called R2RISE. R2RISE aims to explain the overall policy performance with respect to the frames in demonstrations. It iteratively retrains the black-box IL model from the randomized masked demonstrations and uses the conventional evaluation outcome environment returns as the coefficient to build an importance map. We also conducted experiments to investigate three major questions concerning frames' importance equality, the effectiveness of the importance map, and connections between importance maps from different IL models. The result shows that R2RISE successfully distinguishes important frames from the demonstrations.
translated by 谷歌翻译